卷积神经网络实现过程(收集3篇)

时间:2024-08-15 来源:

卷积神经网络实现过程范文篇1

关键词:深度学习;机器学习;卷积神经网络

1概述

深度学习(DeepLearning)是人工智能、图像建模、模式识别、神经网络、最优化理论和信号处理等领域的交叉学科,主要构建和模拟人脑进行分析学习,它属于机器学习的新兴领域。

2大数据与深度学习

目前,光学检测、互联网、用户数据、互联网、金融公司等许多领域都出现了海量数据,采用BP算法对于训练神经网络出现了梯度越来越稀疏、收敛到局部最小值只能用有标签的数据来训练等缺点。Hinton于2006年提出了深度学习的概念,Lecun等人提出了卷积神经网络,卷积神经网络利用空间关系减少参数数目以提高训练性能。

CPU和GPU计算能力大幅提升,为深度学习提供了硬件平台和技术手段,在海量大数据处理技术上解决了早期神经网络训练不足出现的过拟合、泛化能力差等问题。

大数据和深度学习必将互相支撑,推动科技发展。

3深度学习模型

深度学习模型实际上是一个包含多个隐藏层的神经网络,目前主要有卷积神经网络,深深度置信神经网络,循环神经网络。

1)卷积神经网络

在机器学习领域,卷积神经网络属于前馈神经网络的一种,神经元不再是全连接的模式,而是应用了局部感受区域的策略。然而传统的神经网络使用神经元间全连接的网络结构来处理图像任务,因此,出现了很多缺陷,导致模型⑹急剧增加,及其容易过拟合。

在卷积神经网络中,网络中的神经元只与前一层的部分神经元连接,利用图像数据的空间结构,邻近像素间具有更强的相关性,单个神经元仅对局部信息进行响应,相邻神经元感受区域存在重叠,因此,综合所有神经元可以得到全局信息的感知。

另外,一个卷积层中的所有神经元均由同一个卷积核对不同区域数据响应而得到,即共享同一个卷积核,使得卷积层训练参数的数量急剧减少,提高了网络的泛化能力。

一般在卷积层后面会进行降采样操作,对卷积层提取的特征进行聚合统计。降采样区域一般不存在重叠现象。降采样简化了卷积层的输出信息,进一步减少了训练参数的数量,增强了网络的泛化能力。

卷积神经网络实现了局部特征的自动提取,使得特征提取与模式分类同步进行,适用于处理高分辨率的图像数据。目前,卷积神经网络在图像分类、自然语言处理等领域得到广泛应用。

2)深度置信网络

深度置信网络是一种生成模型,网络中有若干隐藏层,同一隐藏层内的神经元没有连接,隐藏层间的神经元全连接。神经网络经过“反向运行”得到输入数据。

深度置信网络可以用做生成模型,通过前期的逐层无监督学习,神经网络可以较好的对输入数据进行描述,然后把训练好的神经网络看作深度神经网络,最后得到分类任务的深度神经网络。

深度置信网络可以用于图像识别、图像生成等领域,深度置信网络可以进行无监督或半监督的学习,利用无标记数据进行预训练,提高神经网络性能。但近几年由于卷积神经网络的飞速发展,深度置信网络已经很少被提及。

3)循环神经网络

循环神经网络是一种专门用于处理时序数据的神经网络,它与典型的前馈型神经网络最大区别在于网络中存在环形结构,隐藏层内部的神经元是互相连接的,可以存储网络的内部状态,其中包含序列输入的历史信息,实现了对时序动态行为的描述。这里的时序并非仅仅指代时间概念上的顺序,也可以理解为序列化数据间的相对位置。如语音中的发音顺序,某个英语单词的拼写顺序等。序列化输入的任务都可以用循环神经网络来处理。如语音、视频、文本等。对于序列化数据,每次处理时输入为序列中的一个元素,比如单个字符、单词、音节,期望输出为该输入在序列数据中的后续元素。循环神经网络可以处理任意长度的序列化数据。

循环神经网络可以用于机器翻译、连写字识别、语音识别等。循环神经网络和卷积网络结合,将卷积神经网络用于检测并识别图像中的物体,循环神经网络用于识别出物体的名称为输入,生成合理的语句,从而实现对图像内容的描述。

4深度学习应用

1)语音识别

语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。其应用领域主要有语音输入系统、语音控制系统和智能对话查询系统,语音识别极大地推动了人工智能的快速发展。1952年Davis等人研究了世界上第一个能识别10个英文数字发音的实验系统。大规模的语音识别研究是在20世纪70年代以后,在小词汇量、孤立词的识别方面取得了实质性的进展。2012年,微软研究院使用深度神经网络应用在语音识别上将识别错误率降低了20%,取得了突破性的进展。2015年11月17日,浪潮集团联合全球可编程芯片巨头Altera,以及中国最大的智能语音技术提供商科大讯飞,共同了一套DNN语音识别方案。

2)图像分析

图像是深度学习最早尝试的应用领域。1989年,LeCun和他的同事们就发表了卷积神经网络的工作。2012年10月,Hinton和他的两个学生用更深的CNN在ImageNet挑战上获得了第一名,使图像识别向前跃进了一大步。

自2012年以来,深度学习应用于图像识别使得准确率大大上升,避免了消耗人工特征抽取的时间,极大地提升了效率,目前逐渐成为主流的图像识别与检测方法。

卷积神经网络实现过程范文篇2

关键词:列车车号;车号识别;卷积神经网络;LeNet?5

中图分类号:TN911.73?34;TP391文献标识码:A文章编号:1004?373X(2016)13?0063?04

Abstract:Forthecharacterrecognitionoffreighttrainlicense,theimprovedrecognitionmethodbasedonconvolutionalneuralnetworkLeNet?5isproposed.Consideringthestructuralfeaturesofthehierarchicalconvolutionalneuralnetworkandlocalfield,theparametersofquantityandsizeofeachlayerfeaturepatterninthenetworkwereimprovedcorrespondinglytoformthenewnetworkmodelsuitableforthefreighttrainlicenserecognition.Theexperimentalresultsshowthattheproposedmethodhasstrongrobustnesstosolvethelicensebreakageandstain,andhighrecognitionrate,whichprovidesaguaranteefortheaccuracyoftheentirelicenserecognitionsystem.

Keywords:trainlicense;licenserecognition;convolutionalneuralnetwork;LeNet?5

0引言

目前货运列车车号识别系统[1?2]主要是基于RFID技术实现的,但是,由于该系统的准确性依赖于列车底部安装的RFID标签,而RFID标签容易损坏、丢失,因此,此类系统无法保证车号识别的准确性。为此,研究者开发了基于图像的货运列车车号识别系统,系统根据视频采集到的图像,利用模糊集合论[1?2]、人工神经网络[3]、支持向量机[4]以及隐马尔可夫模型[4]等技术进行车号字符的识别。但是,由于货运列车车号存在因喷涂方式而导致的单个字符断裂,或者列车长期的野外运行导致的车厢污损,车号字符的残缺等现象,这使得目前的基于图像的货运列车车号识别系统的鲁棒性与识别率还有待进一步提高。

LeNet?5[5?7]是由YannLecun等人提出的一种专门用于二维图像识别的卷积神经网络,该网络避免了人工提取特征依赖于主观意识的缺点,只需要将归一化大小的原始图像输入网络,该网络就可以直接从图像中识别视觉模式。LeNet?5把特征提取和识别结合起来,通过综合评价和学习,并在不断的反向传播过程中选择和优化这些特征,将特征提取变为一个自学习的过程,通过这种方法找到分类性能最优的特征。LeNet?5已经成功应用于银行对支票手写数字的识别中。

为此,本文将卷积神经网络LeNet?5应用于列车车号字符的识别中,为了使之适用于列车车号字符的识别需求,去除掉了LeNet?5中的一些针对手写字符识别而特别设计的连接方式及参数,并在此基础上,改变网络中各层特征图的数量以形成新的网络模型。

1LeNet?5的改进

卷积神经网络可以从很多方面着手改进。诸如多层前馈网络,可以考虑在误差函数中增加惩罚项使得训练后得到趋向于稀疏化的权值,或者增加一些竞争机制使得在某个特定时刻网络中只有部分节点处在激活状态等。本文主要从卷积神经网络的层次化以及局部邻域等结构上的特点入手,考虑卷积神经网络中各层特征图数量及大小对网络训练过程及识别结果的影响。

以LeNet?5结构为基础,去除掉LeNet?5中的一些针对手写字符识别而特别设计的连接方式及参数,得到改进后的神经网络。在此基础上,改变网络中各层特征图的数量以形成新的网络模型。定义一种新的网络模型,将其命名为LeNet?5.1,该网络结构与LeNet?5基本相同,主要做出以下改变:

(1)将原先LeNet?5所采用的激活函数由双曲正切函数修改为Sigmoid函数,此时,网络中所有层的输出值均在[0,1]区间内,输出层的最终结果也将保持在[0,1]区间内。

(2)省略掉F6层,将输出层与C5层直接相连,连接方式为全连接,而不是原LeNet?5中所采用的径向基函数(RBF)网络结构。

(3)简化原LeNet?5中的学习速率。原LeNet?5网络中采用的学习速率为一个特殊的序列,而在本网络中将学习速率固定为0.002。

(4)输入数据原始尺寸为28×28,采取边框扩充背景像素的方法将图像扩充至32×32。

之所以做以上相关改动,是因为原始的LeNet?5就是专门为手写字符识别任务而特殊设计的,这就造成了LeNet?5网络中相关的预处理及参数的选择过程或多或少均带有一些针对特定问题的先验知识。例如激活函数中参数的选择,学习速率定的速率序列以及数据预处理殊的填充方式等,这些特定的设计使得LeNet?5在其他任务的识别过程中并不一定适用,或者需要进行长期的观察实验以选得一组针对特定任务的较好的值,造成了LeNet?5不能快速的应用于除手写字符外其他的识别任务中。

2改进后的网络对列车车号字符的识别

车号经过分割之后为一个个的单字符图像,采用边框扩充背景像素的方法将其归一化为32×32,如图1所示。

由图1中可以看出,待识别的字符图像质量不高,有的数字字符出现残缺、断裂或者严重变形。这都给识别任务提出了一定的挑战。

本文采集到的车号图像来自于不同型号的货运列车。从中选取400幅图像作为训练集,另外选取400幅图像作为测试集。用上一节提出的LeNet?5.1网络进行训练,误分类率曲线如图2所示。可以看出,在LeNet?5.1训练过程中,训练MCR(MisclassificationRate)和测试MCR的变化过程相对稳定,验证了改进后网络结构的合理性。在经过16次的迭代之后,测试MCR降至最低(5.75%),之后基本保持稳定,即16次迭代之后,网络达到了当前的最佳训练效果,达到了收敛状态。这时,训练MCR为0.5%,测试MCR是5.75%。

训练过程中的误分类率曲线

而针对相同的数据,采用原始的LeNet?5进行训练和测试后,误分类率如图3所示。从图3中可以看出,LeNet?5经过了18次的迭代后,测试MCR才达到相对稳定的状态,降至6%,最终的训练MCR为1%。相比之下,经过简化和改进的LeNet?5.1,由于改进了原始的LeNet?5中专门为手写字符识别任务而特殊设计的一些预处理及函数选择等固定模式,并且精简了网络结构,使得LeNet?5.1在列车车号的识别方面具有了更快的训练速度和收敛速度,另外,最终达到的准确度也有所提升。

在证明了改进后的LeNet?5.1网络的合理性之后,增加训练图像的规模,采用10000幅车号数字字符图像用来训练,5000幅用来测试。为了与其他方法进行比较,采用相同的训练数据对车号识别中常用的三层BP网络进行训练和测试,这里采用的BP网络隐含层节点数量为450,学习速率采用0.01。实验结果比较如表1所示。从表1可以看出,改进后的LeNet?5.1网络的识别率比BP网络的识别率高出4.62个百分点,在识别速度方面,LeNet?5.1也明显优于传统的BP神经网络。

3针对车型号字母识别而改进的神经网络及其结果

货运列车车号的组成是由车型号与车号共同组成的,因此还需要对车型号进行识别,车型号中除了有阿拉伯数字字符之外,还有很多表示车种及车厢材质等属性的英文字母,这些英文字母同样采用卷积神经网络来识别。由于车型号很多,初期针对若干常用型号的列车进行识别,以测试网络的性能,后期对全车型进行识别。

3.1常用列车车型的识别

在试运行阶段主要识别的车型局限于7种主要的车型:C64K,C64H,C70A,C70E,C80,C62AK和C62BK。由于车种都为敞篷车(第一个大写字母C),主要对后面代表该车型载重量的两位数字以及最后代表车厢材质等属性的字母进行识别。考虑到车型号字符串的固定模式,如图4所示,可以分别建立两个不同的卷积神经网络分别用来识别数字和字母,由于之前已经解决了数字的识别问题,接下来主要进行字母的识别。要识别的代表车厢材质的字母共有6个:K,H,A,E,A和B,为了尽可能的避免因字母分割问题而导致的识别错误,把AK和BK分别作为一个整体来识别,那么需要识别的字符组合变为:K,H,A,E,AK和BK。由于识别种类的减少,可以对网络模型LeNet?5.1进行相应的简化,命名该模型为LeNet?5.2。

LeNet?5.2是在LeNet?5.1的基础上进行改动而得到的:

(1)卷积层C1的特征图由6个减少为4个,相应地,S2层的特征图也由6个减少为4个。

(2)卷积层C3的特征图由16个减少为11个,相应地,S4层的特征图也由16个减少为11个。

(3)卷积层C5的特征图个数由120个减少为80个。

(4)输出分类的数目由10个减少为6个。

另外,卷积层C3层与次抽样层S2层的连接情况如表2所示。

表2的连接方式采用与表1相同的思想,每一列都说明了C3层中的一个特征图是由S2中的那几个特征图结合而成。卷积层C3中第0个至第5个特征图分别与次抽样层S2中的两个特征图相连接,一共6种组合。C3中的这6个特征图负责抽取上一层中某两个特征图所潜在的特征。C3层中第6个至第9个特征图中每个特征图分别对应上一层中的3个特征图的组合,而C3层中最后一个特征图则与上一层中所有的特征图相连接。这样卷积层C3中的特征图就包含了次抽样层S2中多个特征图的所有组合,这样使得卷积层C3抽取到的特征比S2层更抽象、更高级,同时,相对于输入数据,C3层相比S2层具有更好的对位移、扭曲等特征的不变性。

相比LeNet?5.1,LeNet?5.2将网络层中的特征图数量做了相应的削减,减少了网络中可训练参数的数量。

实验数据来自以上提到的7类常用车型。经过前面过程的定位和分割之后,将分割之后代表车厢材质等属性的字母图像收集起来。本实验中,共收集到6种代表不同车厢材质属性的字母共800幅,其中400幅用作训练数据,另外400幅用作测试数据。

图5为LeNet?5.2使用以上数据训练过程中得到的MCR曲线图。由图5中可以看出,在经过13次迭代之后,测试MCR达到最低的3.25%,并且在随后的迭代过程中基本保持稳定,而对应的训练MCR为0.75%。

3.2全车型识别

经过对铁道行业标准《铁路货车车种车型车号编码》(TB2435?93)里面包含的所有车型号进行统计,除了10个阿拉伯数字外,包括了除O,R,V,Z四个字母外所有的大写英文字母,总共有32类字符。

训练过程中的误分类率曲线

针对车型号的识别需求,本文在LeNet?5.1的基础上提出了一种新的网络模型,称之为LeNet?5.3。与LeNet?5.2相反,LeNet?5.3是在LeNet?5.1的基础上对网络中各层的特征图数量进行扩充:

(1)卷积层C1的特征图由6个增加至8个,相应地,S2层的特征图也由6个增加至8个。

(2)卷积层C3的特征图由16个增加至24个,相应地,S4层的特征图也由16个增加至24个。

(3)卷积层C5的特征图个数由120个增加至240个。

(4)输出层神经元的个数由10个增加至32个。

其中卷积层C3层与次抽样层S2层的连接情况参考LeNet?5.2所采用的原则,使卷积层C3中的特征图包含次抽样层S2中多个特征图的主要组合。

与LeNet?5.1相比,LeNet?5.3需要有更多的输出类别,各层的特征图数量也做了相应的增加,以增加整个网络的识别性能。为了验证改进后的LeNet?5.3的性能,收集了大量真实列车车厢图片,经过车号定位和分割之后,将单个的数字字符或者大写字母字符图像尺寸依次归一化为32×32,分别建立训练图像库和测试图像库。

由于LeNet?5.1各层的特征图数量多,因此该网络涉及到的可训练参数也大大增加,这也意味着需要更多的数据样本用于网络训练。若训练集和测试集规模依然采用跟前面实验中一样的各400幅,训练过程中的误分类率曲线如图6所示,图6中的曲线变化非常不稳定,波动较大。测试MCR达到最低点后又突然升高,不能获得稳定的分类结果,训练过程无法收敛。

网络训练过程中无法收敛的主要原因在于相比网络中过多的需要训练确定的权值,数据集规模过小,已然不能满足学习的要求。从特征图角度来看,网络无法通过不充足的训练样本学习到稳定而有效的特征图组合,从而导致了网络不收敛。要解决这个问题需要加大测试样本的数量。

为了训练和测试LeNet?5.3,对数据集进行了扩充:训练图像库包含字符图像4000幅,测试图像库包含字符图像2000幅。训练过程中的误分类率曲线如图7所示。从图7中可以看出,经过32次迭代之后网络趋于收敛,并且达到了较好的识别率。

4结语

本文针对货运列车车号识别的难题,提出了基于卷积神经网络LeNet?5改进后的识别方法,主要对卷积神经网络中各层特征图数量及大小进行了改进。且与传统的BP网络进行了比较,从实验结果可以看出,改进后的卷积神经网络无论在鲁棒性还是识别率以及识别速度上都优于BP网络,可以很好地胜任列车车号识别任务。

参考文献

[1]宋敏.铁路车辆车号自动识别系统的研究和开发[D].天津:河北工业大学,2011:1?5.

[2]LUS,CHENBM,KOCC.Perspectiverectificationofdocumentimagesusingfuzzysetandmorphologicaloperations[J].Imageandvisioncomputing,2005,23(5):541?553.

[3]SHAHP,KARAMCHANDANIS,NADKART,etal.OCR?basedchassis?numberrecognitionusingartificialneuralnetworks[C]//Proceedingsof2009IEEEInternationalConferenceonVehicularElectronicsandSafety(ICVES).[S.l.]:IEEE,2009:31?34.

[4]CHEND,BOURLARDH,THIRANJP.TextidentificationincomplexbackgroundusingSVM[C]//Proceedingsof2001IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition.[S.l.]:IEEE,2001:621?626.

[5]LECUNY,BOTTOUL,BENGIOY,etal.Gradient?basedlearningappliedtodocumentrecognition[J].ProceedingsoftheIEEE,1998,86(11):2278?2324.

[6]LECUNYA,BOTTOUL,ORRGB,etal.Efficientbackprop[M]//Anon.Neuralnetworks:tricksofthetrade.Berlin:SpringerBerlinHeidelberg,1998:9?50.

卷积神经网络实现过程范文篇3

(一)网络建设整体运行水平和质量不高,如信息反馈不及时、四员互控能力不强、特别是在线扣款落实力度不大,处于全市落后名次,有待进一步提高。

(二)卷烟结构不够优化,一、二类烟、省外烟需要进一加大促销力度,在不同程度上制约了太康卷烟销售工作有效开展。

(三)思想认识存在问题。有安于现状、干劲不够足、眼光狭隘、胸怀不够宽,束手无策、办法不够多等落后思想观念。

二、造成工作被动的原因:

一是思想认识问题没有真正解决,主观努力不够,存在被动应付问题;二是工作中谋划、组织不力,推动工作的力度不够,积极应对、克服困难的办法欠缺;三是从职工队伍素质看,有的精神状态不佳,没有进取意识,有的作风不扎实,没有创新意识。个别营销人员的工作积极性、主动性不高,货源向商户公开不及时,个别品牌宣传不到位,服务不完善,在品牌的市场培育工作方面欠缺。

三、推进卷烟上水平具体工作措施针对存在问题,在下一步工作中我们将采取切实有效的措施,认真加以克服和解决,重点抓好以下工作:

一是狠抓作风建设。按照国家局提出的“四要”作风要求和市局提出的“六个反对、六个提倡”的工作要求,结合正在开展的机关作风建设活动,在干部职工中认真开展思想作风纪律大整顿,切实解决干部职工满足现状、标准不高,精神不佳、状态不好的问题,力求思想观念更新,纪律意识增强,工作作风改观,以更高的目标、更实的作风和更加良好的精神状态,促进“卷烟上水平”各项工作顺利开展。

二是稳增卷烟销量。继续把销量稳定增长作为经济运行调控的首要指标,摆在突出位置,量化分解任务,加大考核奖惩,增强全员责任感、压力感。认真研究和分析我县卷烟市场状况和客户资源,及时把握市场需求和消费潜力,密切关注市场走势,适时研究制订并实施应对措施,全力以赴确保卷烟销量稳步增长。把农村市场扩销为重点,提高服务市场、营销水平,深挖市场潜力,努力扩增销量。认真做好零售客户业态分类,精心培育有效客户,发展提升核心客户,为销量增长提供保证。

三是注重结构转型。把品牌培育作为实现卷烟销售结构优化上水平的重要措施,完善品牌培育规划和推进计划,发挥市场经理和客户经理职能,做好客户宣传引导工作,使重点品牌培育有实质性进展。继续推进“两转一扩”,狠抓城区高档消费场所和乡镇集贸市场的销售,专卖部门加大对这些场所的管理,与公安部门配合,搞好宣传检查,对符合办证条件的尽快办证入网。充分调动一切积极因素,努力扩销一、二类烟,着力提升销售结构。

四是提升网建水平。针对我们网建基础薄弱的实际,借鉴先进单位经验,大力推进网上订货、在线代扣工作,加大宣传力度,积极与邮政部门搞好协调,实行“责任到人、服务到户”的工作原则,充分调动客户经理工作积极性、主动性,提高办事效率和服务质量,切实提高卷烟货款在线代扣率。同时,保质保量完成村村通网络工程任务,认真抓好按订单组织货源工作,切实增强网络建设软实力。

【卷积神经网络实现过程(收集3篇) 】相关文章:

优秀日记[精选](整理5篇) 2024-08-12

精选昆虫日记(整理2篇) 2024-08-12

[精选]成长日记作文(整理5篇) 2024-08-10

我的日记6[精选](整理3篇) 2024-08-09

校园生活日记精选1(整理9篇) 2024-08-09

实用的日记作文精选(整理6篇) 2024-08-08

三年级日记精选(整理3篇) 2024-08-08

忆江南作文(整理7篇) 2024-08-15

卷积神经网络实现过程(收集3篇) 2024-08-15

过年写人的字作文(整理10篇) 2024-08-15